PD-Net: Detección de la Enfermedad de Parkinson a través de la Fusión de Dos Características Espectrales Utilizando una Red Neuronal Híbrida Profunda Basada en Atención
Autores: Islam, Munira; Akter, Khadija; Hossain, Md. Azad; Dewan, M. Ali Akber
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
PD-Net: Detección de la Enfermedad de Parkinson a través de la Fusión de Dos Características Espectrales Utilizando una Red Neuronal Híbrida Profunda Basada en Atención
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Enfermedad de Parkinson
Disfunción vocal
Espectrograma mel
MFCC
Redes neuronales convolucionales
Redes de memoria a largo y corto plazo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La enfermedad de Parkinson (EP) es una enfermedad cerebral degenerativa progresiva que empeora con la edad, causando debilidad en áreas del cerebro. La disfunción vocal a menudo surge como uno de los indicadores más tempranos y prominentes de la enfermedad de Parkinson, con un número significativo de pacientes que presentan deterioros vocales durante las etapas iniciales de la enfermedad. En vista de esto, para facilitar el diagnóstico de la enfermedad de Parkinson a través del análisis de estas características vocales, este estudio se centra en ejercer una combinación de espectrograma mel y MFCC como características espectrales. Este estudio adopta datos de audio en bruto en italiano para establecer un marco de detección eficiente diseñado específicamente para clasificar los datos vocales en dos categorías distintas: individuos sanos y pacientes diagnosticados con la enfermedad de Parkinson. Con este fin, el estudio propone un modelo híbrido que integra Redes Neuronales Convolucionales (CNN) y redes de Memoria a Largo y Corto Plazo (LSTM) para la detección de la enfermedad de Parkinson. Ciertamente, se emplean CNN para extraer características espaciales de las características espectro-temporales extraídas de los datos vocales, mientras que las LSTM capturan dependencias temporales, acelerando un análisis integral del desarrollo de los patrones vocales a lo largo del tiempo. Además, la fusión de un mecanismo de atención multi-cabeza mejora significativamente la capacidad del modelo para concentrarse en detalles esenciales, mejorando así su rendimiento general. Este método unificado tiene como objetivo mejorar la detección de cambios vocales sutiles asociados con el Parkinson, mejorando la precisión diagnóstica general. Los hallazgos declaran que este modelo logra una notable precisión del 99.00% en el proceso de detección de la enfermedad de Parkinson.
Descripción
La enfermedad de Parkinson (EP) es una enfermedad cerebral degenerativa progresiva que empeora con la edad, causando debilidad en áreas del cerebro. La disfunción vocal a menudo surge como uno de los indicadores más tempranos y prominentes de la enfermedad de Parkinson, con un número significativo de pacientes que presentan deterioros vocales durante las etapas iniciales de la enfermedad. En vista de esto, para facilitar el diagnóstico de la enfermedad de Parkinson a través del análisis de estas características vocales, este estudio se centra en ejercer una combinación de espectrograma mel y MFCC como características espectrales. Este estudio adopta datos de audio en bruto en italiano para establecer un marco de detección eficiente diseñado específicamente para clasificar los datos vocales en dos categorías distintas: individuos sanos y pacientes diagnosticados con la enfermedad de Parkinson. Con este fin, el estudio propone un modelo híbrido que integra Redes Neuronales Convolucionales (CNN) y redes de Memoria a Largo y Corto Plazo (LSTM) para la detección de la enfermedad de Parkinson. Ciertamente, se emplean CNN para extraer características espaciales de las características espectro-temporales extraídas de los datos vocales, mientras que las LSTM capturan dependencias temporales, acelerando un análisis integral del desarrollo de los patrones vocales a lo largo del tiempo. Además, la fusión de un mecanismo de atención multi-cabeza mejora significativamente la capacidad del modelo para concentrarse en detalles esenciales, mejorando así su rendimiento general. Este método unificado tiene como objetivo mejorar la detección de cambios vocales sutiles asociados con el Parkinson, mejorando la precisión diagnóstica general. Los hallazgos declaran que este modelo logra una notable precisión del 99.00% en el proceso de detección de la enfermedad de Parkinson.